tg-me.com/sqlhub/1910
Last Update:
Авито открыл AI‑кухню на Data Fest 2025
Компания поделилась секретами работы над искусственным интеллектом.
Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.
Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.
А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.
Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.
BY Data Science. SQL hub

Share with your friend now:
tg-me.com/sqlhub/1910